【人民教育出版社】高校数学必修第2巻（A版）：現実からデータへ――科学的サンプリングの論理と方法

統計学は、データを収集・分析することで現象を理解するための科学です。現実社会では、すべての対象を調査することはできません。そのため、『サンプリング』によって一部のデータから全体を推測し、科学的な推論を行う必要があります。

1. 統計調査の基本用語

全数調査（人口調査）： 調査対象となるすべての個体に対して調査を行う方法。
標本調査（サンプリング調査）： 母集団から一部の個体を抽出して調査を行い、その結果に基づいて母集団の状況を推定・推論する方法。
母集団（Population）： 調査の対象となるすべての個体の集合。
個体（Individual）： 母集団を構成する、各々の調査対象。
標本（Sample）： 母集団から抽出された部分の個体。
標本量： 標本に含まれる個体の数。

2. データ収集の多様な手段

直接調査（例：人口調査）でデータを取得する他にも、以下の方法が利用できます：

実験： 統計学において、実験の設計に関する学問を『実験計画』と呼びます。
観察： 自然な状態のまま情報を収集すること。
調査（リサーチ）： 過去に誰かがすでに収集したデータを入手する。このようなデータを二次データと呼びます。

標本にはランダム性があるため、標本から母集団を推定する際には、統計的推論結果に確率性（あるいは不確実性）（つまり誤差が生じる可能性がある）が伴います。この点は、統計結果を実際に問題に応用する際に特に注意すべきことです。

比例式：$\frac{n}{N} = \frac{\text{層の標本量}}{\text{各層の母集団量}}$

問題1

ある地域のコンピュータ能力試験に参加した5,000人の学生の成績を把握するために、200人の学生を抽出して調査・分析を行いました。この場合、抽出された200人の学生は（　）です。

A. 母集団

B. 個体

C. 標本

D. 標本量

問題2

ある会社には合計$N$名の従業員がおり、いくつかの部署に分かれています。全従業員から、標本量が$n$の『層別無作為抽出法』で標本を抽出する場合、ある部門に$m$名の従業員がいるとき、その部門から抽出される従業員数は（　）ですか？

$\frac{m}{n} \cdot N$

$\frac{n}{N} \cdot m$

$\frac{m}{N} \cdot m$

$n - m$

問題3

次の調査のうち、最も適切なのはどれでしょうか？（　）

ある県の各村における穀物の播種面積を調査する

一袋のトウモロコシ種子の発芽率を調べる

ある企業が従業員の健康診断表を調査する

あるクラスの生徒の視力調査（全員対象）

問題4

ある地域の公衆衛生機関が200人の生徒の喫煙状況を調査したところ、58人が「はい」と回答しました。この地域の喫煙生徒の割合を推定できますか？

29%

58%

20%

推定できない

問題5

単純無作為抽出法と層別無作為抽出法の主な違いは（　）です。

標本量の大きさが異なる

各個体が抽出される確率が等しいかどうか

個体の違いに応じてグループ分けして抽出するかどうか

データ処理の方法がまったく異なる

問題6

$m$個のデータ $x_i$ の平均値が $\bar{x}$、$n$個のデータ $y_j$ の平均値が $\bar{y}$ のとき、組み合わせた全体の平均値を求める正しい公式は（　）です。

$\frac{\bar{x} + \bar{y}}{2}$

$\frac{m\bar{x} + n\bar{y}}{m+n}$

$\frac{\bar{x} + \bar{y}}{m+n}$

$\frac{m+n}{\bar{x} + \bar{y}}$

問題7

標本調査の『確率性』について、次のうち正しいのは（　）です。

方法が科学的なら、結論は絶対的な真実である

標本調査の結果は全く参考にならない

結論は標本からの推測に基づくため、確率的なリスクが存在する

全数調査の結果でも確率的な誤りが生じる

問題8

次の調査手法のうち、『二次データ』を取得するものとして適切なのは（　）です。

体育授業で生徒の100m走の記録を実際に測定する

図書館で『統計年鑑』に掲載された人口データを参照する

アンケートを設計して路上の人々の消費習慣を調査する

化学実験を通じて反応時間を記録する

問題9

層別無作為抽出法において、母集団のサイズが1000、標本量が100、ある層に250個の個体がいる場合、その層から抽出すべき個体数は（　）です。

100

問題10

単純無作為抽出法において、各個体が抽出される確率は（　）です。

$n/N$

$1/n$

$1/N$

チャレンジ：統計的計画設計と推論

読解資料：市役所は段階電力料金制度を導入する予定です。200戸の住民の標本データ（50〜350kWhの範囲）をもとに基準を決定します。目標は、75％の住民を第1段階、20％を第2段階、残りの5％を第3段階に配置することです。

1. 【短答】層別抽出法の全体平均値の公式を証明せよ：$\frac{\sum_{i=1}^m x_i + \sum_{j=1}^n y_j}{m+n} = \frac{m}{m+n}\bar{x} + \frac{n}{m+n}\bar{y}$

証明：平均値の定義より、$\sum_{i=1}^m x_i = m\bar{x}$ かつ $\sum_{j=1}^n y_j = n\bar{y}$ である。
これを左辺の分子に代入する：
左辺 $= \frac{m\bar{x} + n\bar{y}}{m+n} = \frac{m\bar{x}}{m+n} + \frac{n\bar{y}}{m+n} = \frac{m}{m+n}\bar{x} + \frac{n}{m+n}\bar{y}$。
証明終了。この公式は、全体の平均値が各層の平均値の加重平均であることを示しています。

2. 【作文課題】『全校生徒の体重状況調査』のための計画案を作成してください（約500字）。

参考となる計画のポイント：
1. 目的を明確化： 全校生徒の平均体重と肥満率の分布を把握する。
2. 母集団と個体を確定： 全校のすべての生徒を母集団とし、一人ひとりの生徒を個体とする。
3. 抽出方法を選択： 異なる学年や性別の発育差が顕著であるため、層別無作為抽出法学年（1年、2年、3年）および性別を層別基準とする。
4. 標本量を決定： 人件費のコストを考慮し、10％の生徒（例：300人）を抽出する。
5. データ収集の実施： 体重計による実測法を使用し、自己申告（二次データにはバイアスが生じる可能性あり）は避ける。
6. 分析と推論： 標本の平均値と標準偏差を計算し、頻度分布ヒストグラムを作成。その後、パーセンタイル値に基づいて『肥満』の基準を定義する。

3. 【短答】『標本調査は全数調査より人手と時間の節約になるし、結果もほぼ同じだから、常に標本調査の方が有利だ』という意見があります。あなたはこの考えに同意しますか？

参考解答：
この主張には一定程度の正当性がありますが、あまりにも極端すぎます。
(1) 利点： 標本調査は確かに経済的で、迅速な結果を得られ、破壊的（例：種子の発芽率試験）または母集団が無限大の場合には唯一の選択肢です。
(2) 限界： 標本調査には抽樣誤差があり、結論には『確率性』が伴います。非常に高い精度が求められる、国家レベルの大規模決断（例：国勢調査）や法的義務で完全カバーが必要な場合、全数調査は依然として代替不可能です。
(3) 結論： 調査の目的、コスト、母集団の規模に応じて、柔軟に選択すべきです。